7.6 Meta-Evaluation: 오라클 자체의 신뢰성 검증 7.6.1 인간 평가자(Human Evaluator)와 AI 평가 간의 상관계수(Correlation) 측정 7.6.2 Cohen’s Kappa 및 Krippendorff’s Alpha를 이용한 평가 일치도 분석 7.6.3 평가용 골든 데이터셋(Evaluation Golden Dataset) 구축 및 벤치마킹 7.6.4 오라클의 오탐(False Positive)과 미탐(False Negative) 모니터링 7.6.5 지속적인 피드백 루프를 통한 평가 프롬프트 개선 프로세스